{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "import sys\n",
    "import common\n",
    "import numpy as np\n",
    "from sklearn.feature_extraction.text import TfidfVectorizer"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['提到 强迫症 大家 首先 想到 一个 是什么 不言而喻 处女座 大概 是因为 处女座 人大 追求 完美 处女座 的人 看到 不完美 事情 或者 东西 想说 两句 他们 看不得 脏乱差 自己 地方 一定 一尘不染 甚至 东西 摆放 一致 试问 就这样 强迫 症状 处女座 自己 第二 谁敢 第一 当然 一个 星座 人都 强迫症 只是 刚好 处女座 强迫 症状 明显 一些 罢了 比如 射手座 小编 一个 严重 强迫症患者 这话 怎么说呢 听我 娓娓道来 Fir st 小编 个爱 葡萄 傻姑娘 每次 洗葡萄 之前 一颗颗 下来 数好 数量 如2 当然 类似 还有 圣女果 时候 数数 一次 一次 两次 Se cond 某次 朋友 吃饭 已经 出门 记得 有没有 锁门 折腾 回去 检查 结果 当然 锁门 每天 上班 锁门 后来 推拉门 确认 是否 锁上 这样的 现象 不知道 各位 看官 有没有 经历 言归正传 大家 科普 一下 强迫症 强迫症 非常 痛苦 患者 往往 觉得 自己 一个 身心 疲惫 的奴隶 自己 身上 千斤 必须 有人 鞭策 自己 才能 前进 强迫症 典型 特征 就是 追求 完美 甚至 一种 极致 的完美 他们 追求 很多 事情 时候 很努力 但是 往往 事情 结果 并没有 那么美好 总是 有些 残缺 而且 他们 追寻 的完美 往往 一些 毫无意义 细枝末节 强迫症 很多 空闲时间 消耗 无意义 事情 更多 精力 花费 细枝末节 如何 解决 强迫症 问题 一些 事情 占用 时间 具体 事情 选择性 三个 条件 意义 量化 明确的目标 结果 意义 不要 执着 烦琐 小事 量化 有利于 掌握 平衡感 为了 总体 效果 不得不 放弃 局部 的完美 明确的目标 结果 有利于 明确的 界限 形成 例如 洗手 为了 消除 有害 细菌 避免 病从口入 只要 达到 这个 目的 两三分钟 即可 通过 这样的 方式 一段时间 可以 一定 程度 解决 强迫症 问题',\n",
       " '问问 大家 一个 比较 隐私 问题 便便 时间 需要 多久 单选 分钟 分钟 分钟 以上 分钟 尚可 理解 毕竟 有时候 便便 不是 那么 容易 la 忍不住 要说 厕所 手机 报纸 分钟 以上 可能你 不是 便秘 就是 玩游戏 厕所 就是 努力 地方 千万别 当成 放松 场所 问题 来了 一次 便便 多久 最好 这个 便便 多久 最好 问题 小编 必须 告诉你 便便 太久 后果 否则 谈论 这个 最佳时间 意义 便便 太久 痔疮 脱肛 不管 蹲厕 还是 马桶 便便 太久 都会 好好的 屁股 蹲坑 底部 支撑 结构 受到 腹内 长期 蹲坑 时间 过长 容易 引发 脱肛 痔疮 直肠 子宫 脱垂 疾病 特别 对于 盆底 结构 松弛 的人 老人 来说 更要 注意 引起 便秘 手机 方便 不少 人都 这个 习惯 就是 这个 坏习惯 手机 成为 厕所 杀手 本来 分钟 解决 事情 手机 完全 可能 分钟 有时 甚至 便便 已经 la 完了 意犹未尽 厕所 一遍 一遍 地刷 手机 不能 先擦 屁股 提了 裤子 沙发 刷刷 非要 臭臭 卫生间 排便 其实 一心一意 反而 觉得 那么 la 如果 长期 如此 将会 形成 习惯 便秘 诱发 脑中风 对于 一些 老年人 身体虚弱 的人 来说 如果 本来 存在 排便困难 问题 加上 一去 厕所 长时间 采取 蹲姿 排便 时候 那么 用力 专业 医学 术语 来讲 腹压 增大 腹压 增大 容易 引起 血压 增高 面部 充血 心跳加速 诱发 心脑血管病 经常 老年人 厕所 发生 脑卒中 轻者 昏迷不醒 偏瘫 重者 造成 死亡 其实 文章 说过 一天 最危险的时刻 之一 就是 厕所 虽然 有点 夸张 近几年 此类 新闻 也是 常常 出现 既然 排便 后果 这么 严重 最佳 便便 时间 多长 答案 分钟 最好 超过 分钟 多久 大便 一次 正常 小编 以前 同住 一个朋友 小灰 经常 都会 念叨 如果哪一天 没有 大便 浑身 都会 痛快 一定要去 才行 是不是 一两天 大便 代表 自己 便秘 实际上 一天 大便 或者 两三天 大便 一次 算是 正常 便秘 是你 平时 排便 次数 减少 同时 排便 时有 大便 干结 不出 情况 今天 特别 蔬果 杂粮 可能 次数 多一些 或者 这两天 怎么 活动 老坐 可能 次数 一些 还有 坐飞机 去了 外地 出差 或者 旅游 生活环境 突然 改变 可能 大便 相对 增多 减少 所以 能够 每日 一次 大便 一种 比较 理想 状态 每个 排便 频率 都会 有所 差异 随着 自身 环境 变化 大便 习惯 有些 改变 没有 必要 因为 今天我 怎么 还没有 大便 硬要 强迫 自己 给自己 太大 心理 负担 早晨 是不是 排便 最佳时间 有人 后台 留言 小编 听说 早晨 排便 最佳时间 是不是 我在 其他 时间 排便 不好 早晨 排便 一定 道理 因为 晨醒 吃完饭 段时间 结肠 活动 最为 活跃 所以 如果 觉得 自己 排便 时有 困难 或者 培养 一下 排便 习惯 的话 可以 试着 控制 一下 两个 时间 排便 如果 自己 便意 别管 什么 最佳时间 赶紧 厕所 排便 规律 做好 几点 重要 想要 便便 通畅 很多 想尽 办法 清肠 茶泡 一包 一包 马桶 脚下 凳子 这些 方法 真是 治标不治本 市面上 五花八门 通便茶 清肠 许多 添加 缓泻 作用 成分 类产品 扰乱 肠道 神经 自主 节律 长期 使用 会令 肠壁 敏感性 下降 自律性 紊乱 反而 排便 更加 困难 关于 排便 还是 其实 该排 不出 还是 不出 这些 方法 其实 不如 调整 生活习惯 来得 靠谱 养成 排便 好习惯 定时 如厕 如厕 集中 精神 不要玩手机 看书 尽量 缩短 如厕 时间 平时 切忌 大便 一有 便意 及时 排便 运动 按摩 饭后 适当 走动 平时 注意 锻炼身体 如果是 老人 选择 太极拳 散步 平日 经常 顺时针 按摩 腹部 每次 促进 肠道 正常 蠕动 良好 饮食习惯 每天 多吃含 植物纤维 食物 新鲜 蔬菜 水果 不仅 可以 防止 便秘 降低 肠道 恶性 疾病 结肠癌 发生 放松心情 各种 心理压力 焦虑 抑郁 紧张 不良 心境 也是 造成 便秘 元凶 平时 通过 唱歌 跳舞 锻炼 交友 方式 学会 自我 减压 尽量 保持 轻松愉快 良好 心态']"
      ]
     },
     "execution_count": 8,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "train_set = common.get_train_set()\n",
    "train_set[:2]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "TfidfVectorizer(analyzer='word', binary=False, decode_error='strict',\n",
       "        dtype=<class 'numpy.int64'>, encoding='utf-8', input='content',\n",
       "        lowercase=True, max_df=0.5, max_features=1000000, min_df=1,\n",
       "        ngram_range=(1, 1), norm='l2', preprocessor=None, smooth_idf=True,\n",
       "        stop_words=['停词'], strip_accents=None, sublinear_tf=False,\n",
       "        token_pattern='(?u)\\\\b\\\\w\\\\w+\\\\b', tokenizer=None, use_idf=True,\n",
       "        vocabulary=None)"
      ]
     },
     "execution_count": 9,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "tfidf = TfidfVectorizer(min_df=1, max_df=0.5, stop_words=['停词'], max_features=1000000)\n",
    "tfidf"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Wall time: 434 ms\n"
     ]
    },
    {
     "data": {
      "text/plain": [
       "(1000, 55389)"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "%time tfidf_array = tfidf.fit_transform(raw_documents=train_set)\n",
    "# tfidf结果是一个两维array，行是文章数，列是最后词数\n",
    "tfidf_array.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['05mg',\n",
       " '100m',\n",
       " '1020mm',\n",
       " '10w',\n",
       " '10月11日',\n",
       " '10月1日',\n",
       " '10月28日',\n",
       " '10月29日',\n",
       " '10月30日',\n",
       " '10月4日']"
      ]
     },
     "execution_count": 14,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "# 获取tfidf的词\n",
    "tfidf.get_feature_names()[:10]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
